2024/09/27

這三年(二)一百首詩的實驗:智慧有限

大約在2020年下半,我開始了一個新的實驗,建立了一個全自動的系統,自動摘要前一天網路上的熱門話題,以此話題寫詩,然後發表在網路上。

這個系統在每天凌晨的時候,會自動上 PTT 八卦板找「24小時內回應最多的文章」,然後丟給「內容分析」的系統,找出「主題」跟相關的「文字脈絡」;這些主題跟文字,再丟給語言模型(當時用的是「用知名小說家作品集微調過的 GPT-2」),生成幾首詩;最後,再用生成的詩丟給「文字生成影像」的模型來生成圖片(當時 MidJourney 還是邀請制,我用的是 open source 的 ImageGAN),最後形成有圖有字的文章。

這個系統執行了100多天的成果,我放在「智慧有限」網站,當然,現在看起來這個系統沒什麼了不起,但想像一下,這個系統上線的時間比 ChatGPT 要早了一年多,所以技術含量也不是那麼的低。網站系統上有時間戳記,所以我也不用為先後順序多做解釋了。

記得當時給一些朋友看,大部分人的反應都是:「喔,那這可以拿來幹嘛?」不過在 GenAI 元年的現在,大概就不會有人這麼問了。

其實相同的系統架構,把 GPT-2 換成現在的 LLM(llama3, qwen2.5, ... etc.),立刻可以變身成為輿情分析、新聞摘要,甚至可以作到一定程度的導覽或策展(curate)。我相信這是目前很多單位在從事開發的目標。


回顧整個計畫執行過程中,我個人覺得比較有趣的部份有兩點。

第一個是「語言模型微調」的實務,這個題目目前是顯學,相關著作很多,像是前幾天剛出版的 "Build a Large Language Model (From Scratch)",基本上就跟我當時的工作日誌裡紀錄的流程差不多,只是當時靠著 RTX-2080 勉強可以微調 GPT-2 模型,要從頭訓練可能就力有未逮了。

第二是「詩該怎麼寫」。要知道 GPT-2 的「體積」是目前主流 LLM 的幾萬分之一,甚或更小(我用的是 small 的版本),能連續生出300字通順而且不偏離主題的內容,就很偷笑了,自然不可能像現在的 chatGPT 一樣直接命令它寫一首詩,還能寫得有模有樣。

然而恰恰因為如此,我們剛好可以實驗各種理論流派對詩的結構的定義。舉例來說,連續的兩句詩句,是要用連續生成的文句,還是用兩次生成的內容之中,語意相關性高,但又不是最高的句子?甚或是,我們該用多個不同版本的微調,對同一主題、相同脈絡進行文字生成,然後再做重組?(就是現在所謂的 MoE)

如此一來,文學似乎出現了一絲契機,可以成為一門實驗科學。這是今天用 GPT-3 以後的大語言模型,反而沒辦法做到的事情。

當然,這只是我個人覺得有趣而已,把文學做成了科學,一則不怎麼浪漫,二則也不見得有什麼實質的意義。

然後,這幾年還做了很多工作,試圖讓 machine learning 可以更恰當的作為一種科學研究的工具,這個部分就留待後續吧。


2024/09/22

這三年(一)

 

by bing image creator

日前(2024-09-21)貼了一篇新貼文,分享最近讀的書,再看看前一篇的時間,是 2021-10-20。差不多有三年沒有貼文了。說實話,在這之前貼文的速度就已經明顯變慢了,這種程度的怠惰,好像也不能都簡單推給新冠疫情,那麼就來稍微盤點一下這三年都在幹些什麼。

其實這三年之間,陸續有起草了多十多篇文章,但都不了了之。其中最多的是 AI 的相關文章,因為這個議題的熱門,我的工作量大增,相關的靈感也多;但另一方面領域進展得太快,以至於每一篇都是還沒寫完,就又有新的突破,或是別人寫了相似主題的文章,所以也就只能放著了。

例如:『該如何打造一個自動交易的機器人?』系列,算是前一個階段創業(2016)的一些心得,但後來跟私募基金簽了合約,就不能公開了;而這兩年,以這個主題開課、寫書的所在多有,我也就不擋人財路了。

『在人工智能浪潮下,其他專業領域的生存之道』跟『敵人還是朋友?機器學習與科學研究』兩篇是寫在 chatGPT 公佈之前,後來有 Machine Learning for Science (ML4Sci) 這類社群的出現,表示某種程度上表示不少人都意識到了這個問題,加上主要研討會(e.g., AI for Science: from Theory to Practice)、大廠(e.g., Google's Science AI)都陸續聚焦在這個議題上,似乎也就沒我什麼事了。

然後,2021 年中上線了一個花了一年時間做出來的系統,但隨著年底 chatGPT 的發表,也就變成了昨黃花,這個下一篇再說好了。(果然很懶惰)


2024/09/21

[Books] 近代的武林軼事與科學觀點的傳統武術,老衲的「說說八卦的八卦」

 


書名:說說八卦的八卦

作者:老衲

出版社:致出版


蠻有趣的書,總長度不長,每段篇幅適中,工作中有個五分鐘空檔就可以翻開讀上一篇,大約一個禮拜讀完,也是趣味橫生,頗有所得。

書中章節的編排也挺有趣,一篇作者講他對傳統武術的理解跟詮釋,跟著一篇近代武林的軼事(看書名當然是以八卦門為主軸囉),夾雜著看,倒也是挺有趣的體驗。

作者本身是「老衲的心意六合拳」的版主,由行文的風格和內容推測,約莫是中年以上,從小因家庭背景而學習國術的男性,用科學原理梳扒起傳統武術的根理脈絡,讓我這個兒少時因好奇而摸過一點點邊的門外漢,讀起來覺得是頭頭是道。

武林軼事主要是以「八卦門是怎來的」為主,當中的宮寶田就是電影一代宗師》裡的八卦門掌門,然後夾雜的國術雜談裡,也巧妙的介紹了太極、詠春、八極拳的一些拳理,相當有意思。

對傳統武術有興趣的人,推薦一讀;其實作者的其他作品我也都買了,就是不知道何時才有空讀了。